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带宽 的 剧 增 给 高 速 网 络 数据 包 处 理 带 来 了 极 大 的 挑战 。 传 统 的 纯 软 件 网 络 数据 包 处 理 在 性 能 上 

要 。 当 前 网 络 处 理 器 、 多 核 芯 片 等 针对 高 性 能 网 络 数据 包 处 理 提供 了 硬件 加 速 技术 ， 对 多 数 
高 性 能 实现 方法 。 在 对 数据 处 理 时 延 、 吞 吐 量 、 丢 包 率 等 性 能 指标 有 更 高 要 求 的 应 用 场合 ， 
还 需要 专用 的 加 速 硬 件 。 本 文 针 对 基于 深度 报 文 检测 (DPI) 的 高 性 能 流量 分 析 和 控制 应 用 需求 ， 介 
现场 可 编程 旭 辑 门 阵 列 CFPGA) 的 通用 高 速 网 络 数 据 包 处 理 硬件 加 速 架 构 。 该 架构 对 数据 采集 通路 进行 硬 
件 加 速 ， 实 现 了 高 速 链 路 数据 报 文 的 线 速 采集 ， 通 过 专用 硬件 进行 数据 包 转 发 和 流量 控制 ， 针 对 后 端 多 核 
服务 器 的 并 行 处 理 进 行 优化 ， 实 现 了 控制 和 分 析 平 面 的 高 性 能 处 理 。 本 文 介绍 该 架构 在 流量 采集 、 高 精度 
时 钟 同 步 、 高 速 包 分 类 和 流量 控制 等 方面 的 硬件 加 速 方法 。 测 试 结 果 表 明 ， 这 些 加 速 方法 充分 卸载 了 服务 
器 的 处 理 负荷 ， 能 有 效 地 提高 应 用 系统 的 性 能 。 
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随 着 网 络 链 路 带宽 的 剧 增 和 网 络 应 用 的 多 样 化 发 网 
展 ， 网 络 数据 包 处 理 对 计算 资源 和 存储 资源 都 提出 了 流 
更 高 的 要 求 。 传 统 服务 器 的 性 能 增长 速度 远 远 低 于 网 
络 带宽 的 增长 速度 趾 , 服务 器 的 性 能 已 经 难以 满足 目前 
高 速 网 络 数据 包 处 理 的 需要 ， 因 此 针对 高 带宽 和 复杂 
网 络 应 用 的 网 络 加 速 方法 一 直 是 学 术 界 和 工业 界 的 丰 
究 热 点 。 预 处 理 : 


HAR E3 
以 入 侵 检 测 、 流 量 监控 等 应 用 为 例 ， 典 型 的 数据 类 等 

包 处 理 流 程 包括 流量 采集 、 预 处 理 〈 时 间 戳 标记、 包 
分 类 、 过 滤 等 )、 协 议 分 析 、 流 量 控制 等 环节 ， 如 图 1 
所 示 。 
图 中 ， 网 络 数据 采集 由 普通 网 卡 完成 ， 数 据 包 预 
处 理 〈 时 间 戳 、 包 分 类 等 )、 流 量 统计 与 协议 分 析 、 应 图 1 
用 决策 、 流 量 控制 等 复杂 的 数据 包 处 理 环节 在 后 端 服 ` 
务 器 上 实现 。 在 系统 实现 上 ， 要 充分 考虑 IO 性 能 、 主 存 性 能 以 及 计算 性 能 。 在 高 速 网 络 链 
路 环境 下 要 使 图 1 中 所 示 的 各 个 处 理 环节 达到 性 能 的 均衡 面临 以 下 诸多 挑战 站: 


1. VO 性 能 问题 网 络 链 路 流量 是 所 有 网 络 分 析 和 网 络 研究 的 基础 。 在 高 速 网 络 环境 
下 ， 对 网 络 流量 处 理 系 统 而 言 ， 网 络 数据 采集 的 性 能 直接 影响 到 网 络 流量 处 理 系统 
的 性 能 。 在 早期 ， 由 于 网 络 速度 较 慢 ， 应 用 较为 单一 ， 使 用 普通 网 卡 与 数据 采集 软 

件 相 配合 , 就 能 够 实现 网 络 流量 的 采集 和 处 理 。 典 型 代表 是 Libpcap"!, BPF, NpEP! 

等 。 然 而 ， 随 着 网 络 传输 和 光 通 讯 技 术 的 不 断 发 展 ， 骨 干 网 链 路 速率 已 经 达到 了 10 

Gbps。 由 于 在 VO 和 数据 传输 通路 上 的 不 足 ， 传 统 的 网 络 数据 采集 方法 已 经 失效 ， 
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更 高 的 网 络 传输 速率 对 网 络 流量 处 理 系统 的 IO 性 能 和 数据 传输 机 制 提出 了 巨大 的 
挑战 。 


2， 主 存 性 能 问题 业务 流 的 多 样 性 要 求 网 络 流量 处 理 系 统 具 备 更 高 层次 的 处 理 能 力 。 然 
而 ， 随 着 处 理 层 次 的 提高 ， 实 现 高 速 网 络 环境 下 实时 的 网 络 流量 处 理 也 越发 困难 ， 
表现 为 三 个 方面 : 


m EAB: 网 络 层 流量 处 理 系统 对 存储 资源 的 需求 与 网 络 上 的 并 发 流 数目 成 正比 ， 
而 应 用 层 流量 处 理 系统 对 存储 资源 的 需求 与 网 络 上 的 报 文字 节 数 目 成 正比 , 随 着 网 
络 速率 的 不 断 提 高 , 较 高 层次 的 网 络 流量 处 理 对 主 存 容量 的 需求 巨大 , 成 为 一 个 不 
可 忽视 的 问题 。 假 设 存储 一 条 流 的 信息 需要 占用 200 字 节 的 空间 ， 在 对 一 条 有 500 
万 条 流 的 10 Gbps 网 络 链 路 进行 处 理 时 , 网 络 层 流量 处 理 系统 中 仅 用 于 流 信 息 存 储 
的 主 存 空间 需求 就 达到 了 1 GB， 如 果 考 虑 应 用 层 流量 处 理 ， 还 需要 存储 每 一 个 流 
中 的 所 有 载荷 ， 此 时 ， 对 主 存 容 量 的 需求 将 会 成 倍增 加 。 


m ” 访 存 带宽 : 网 络 层 流 量 处 理 是 一 种 存储 密集 型 操作 , 网络 层 流量 处 理 的 访 存 次 数 与 
数据 报 文 数目 成 正比 , 而 应 用 层 流 量 处 理 的 访 存 次 数 与 网 络 链 路 中 报 文字 节 数 目 成 
正比 。 由 于 每 一 次 内 存 访问 都 意味 着 所 需 的 内 存 带宽 加 倍 ， 在 高 速 网 络 环境 下 ， 频 
繁 的 内 存 访问 将 会 为 主 存 带 宽带 来 巨大 压力 。 


B — 访 存 延 迟 : 加州 大 学 伯克利 分 校 CUC Berkely) 的 研究 小 组 认为 ， 在 计算 机 体系 结 
构 中 ， 访 存 延 迟 带 来 的 性 能 损失 比 访 存 带宽 更 为 严重 个 。 在 网 络 流量 处 理 系统 中 ， 
这 种 问题 同样 存在 。 通 常情 况 下 ， 一 次 访 存 需要 上 百 个 CPU 时 钟 周 期 。 然 而 ， 在 
高 速 网 络 环境 的 极限 情况 下 , 每 两 个 报 文 之 间 的 时 间 间 隔 远 小 于 每 次 访 存 所 需要 的 
时 间 。 例 如 ， 在 OC-192 万 兆 链 路 上 ，40 字 节 长 度 的 小 报 文 的 间隔 时 间 仅 为 34 纳 
秒 ， 以 2 GHz 的 CPU 为 例 ， 与 每 两 个 报 文 间隔 仅 为 68 个 处 理 器 时 钟 周期 相 比 ， 
上 百 个 周期 的 访 存 时 间 ， 显 然 已 经 无 法 满足 高 速 网 络 流量 的 线 速 处 理 要 求 。 


3. CPU 性 能 问题 如 吉尔 德 定律 中 的 描述 ， 网 络 带 宽 以 每 6 个 月 翻 一 番 的 速度 持续 增 

长 。 这 一 速度 是 摩尔 定律 预测 的 CPU 主 频 增长 速率 的 3 倍 。 可 以 看 到 ， 网 络 链 路 速 
率 与 CPU 处 理 能 力 之 间 的 差距 在 逐步 加 大 ， 用 于 处 理 每 个 数据 报 文 的 CPU 时 间 越 
来 越 少 。 例 如， 传输 64 字 节 报 文 时 ， 在 千 兆 以 太 网 ,流量 处 理 系 统 每 秒 需要 处 理 约 
149 万 个 数据 包 , 而 在 OC-192 万 兆 链 路 , 每 秒 需 处 理 的 数据 包 数 目 达 到 了 1843 万 ， 
超过 了 前 者 的 10 倍 ， 且 要 实现 更 高 层次 更 复杂 的 网 络 流量 处 理 。 显 然 ， 已 有 CPU 
的 处 理 能 力 已 经 远 远 不 能 满足 线 速 处 理 要 求 。 


为 了 解决 纯 软 件 实现 的 应 用 系统 中 上 述 环节 的 性 能 瓶颈 问题 , 研究 者 开始 考虑 使 用 硬件 
加 速 技术 ， 对 数据 包 处 理 的 各 个 环节 进行 便 件 加 速 或 者 任务 卸载 ， 从 而 减轻 CPU 的 处 理 负 
担 ， 加 速 整 个 应 用 系统 的 性 能 。 


本 文 首先 简要 介绍 常见 的 硬件 加 速 平 台 ， 包括 网络 处 理 器 (NP)、 现 场 可 编程 逻辑 门 阵 
列 (FPGA), HERE CASIC) RUNG E EZ Abas (Multicore Processor) 等 ， 并 对 
这 些 平台 的 特点 进行 比较 。 针 对 对 性 能 要 求 很 高 (如 零 丢 包 、hs 级 延迟 等 )、 同 时 要 求 具 有 
一 定 灵 活性 的 应 用 , 基于 现场 可 编程 逻辑 门 阵列 的 硬件 加 速 平 台 是 一 个 很 好 的 选择 。 本 文 介 
绍 了 一 个 基于 现场 可 编程 逻辑 门 阵列 的 通用 高 速 网 络 数据 包 处 理 硬件 加 速 架 构 及 基于 这 种 
架构 在 流量 采集 、 高 精度 时 钟 同步 、 高 速 包 分 类 和 流量 控制 等 具体 的 硬件 加 速 技 术 方 面 的 一 
些 研究 工作 。 最 后 ， 对 这 些 加 速 技术 的 性 能 表现 进行 评测 。 测试 结果 表明 ， 基 于 现场 可 编程 
逻辑 门 阵列 的 硬件 加 速 方法 能 有 效 地 缀 载 服务 器 的 处 理 负担 ， 提 高 应 用 系统 性 能 。 
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本 文 其 余部 分 组 织 如 下 :第 2 节 介绍 常见 的 硬件 加 速 技术 , 分 析 各 种 硬件 平台 的 优 缺 点 ; 
第 3 节 介 绍 基 于 现场 可 编程 逻辑 门 阵列 的 硬件 加 速 解决 方案 , 针对 在 线 流量 分 析 和 控制 应 用 
提出 了 一 个 通用 的 高 速 数 据 包 处 理 硬 件 加 速 架 构 。 第 4 节 , 介绍 基于 该 架构 的 流量 采集 、 高 
精度 时 间 同 步 、 高 速 包 分 类 以 及 流量 控制 等 方面 的 其 体 加 速 方 法 ; 第 5 节 对 相关 加 速 技 术 进 
行 性 能 评 佑 ， 最 后 是 对 相关 研究 工作 的 简单 总 结 。 


2 ”高 速 数 据 包 处 理 硬件 加 速 技 术 


为 了 解决 纯 软 件 实现 的 应 用 系统 在 高 速 网 络 数据 包 处 理 中 的 性 能 瓶颈 问题 , 学 术 界 和 工 
业界 一 直 在 研究 高 速 网 络 数据 包 处 理 的 便 件 加 速 技术 ， 出 现 了 若干 网 络 处 理 人 硬件 加 速 平 台 。 
常见 的 便 件 加 速 平 台 包 括 : 网 络 处 理 器 、 矢 入 式 多 核 处 理 器 、 现 场 可 编程 逻辑 门 阵列 和 专用 
集成 B o 


网 络 处 理 器 是 一 类 高 性 能 可 编程 的 专用 指令 集 处 理 器 。 其 内 部 通常 包含 若干 个 具有 计算 

和 存储 能 力 的 数据 包 处 理 引擎 , 多 个 处 理 引擎 并 行 工作 , 可 实现 高 速 、 复 杂 的 网 络 数据 处 理 。 
> 网 络 处 理 器 的 处 理性 能 很 高 , 具有 代表 性 的 产品 包括 英特尔 公司 的 IXP RGU), IBM 公司 的 
q Power NP ABI. A PARE MR, RETRATI IE 
~ 差 ， 实 际 系统 中 使 用 得 越 来 越 少 。 


近 几 年 来 , 迅猛 发 展 的 多 核 技 术 改 变 了 业界 的 趋势 , 为 网 络 算法 和 网 络 应 用 的 并 行 处 理 
提供 了 新 的 契机 。 一 些 公司 推出 的 多 核 平台 逐渐 成 为 关注 热点 。 典 型 的 代表 有 CaviumP A 
司 的 OCTEON II 系列 和 Tilera" "公司 的 多 核 处 理 器 TILE64 和 TILE-Gx 系列 。 这 类 和 嵌入 式 多 
核 处 理 器 主要 面向 特定 应 用 (如 数字 多 媒体 、 网 络 数 据 包 处 理 等 ) 进行 设计 ， 因 此 ， 片 内 集 
成 了 专用 的 硬件 加 速 引擎 和 专用 的 接口 。 针 对 网 络 数据 包 处 理 的 需求 , 这 类 处 理 器 通常 集成 
了 丰富 的 网 络 接口 (如 SGMII，XAUI，Interlaken 等 )， 以 满足 各 种 高 速 链 路 数据 包 采 集 的 
需求 ， 集 成 了 高 速 的 存储 接口 〈 如 DDR3)， 以 满足 高 速 网 络 数 据 处 理 对 存储 带宽 需求 ， 集 
成 了 高 速 总 线 〈 如 PCIE 2.0)， 以 解决 与 主机 通信 时 的 IO 瓶颈 问题 ， 集成 了 专用 的 硬件 加 
速 引 擎 ， 如 针对 网 络 安全 应 用 的 Crypto Security 和 针对 深度 报 文 检测 的 HFA' 引 擎 (用 于 模 
式 匹 配 ，Pattern Matching) 等 ， 面 向 特定 应 用 的 复杂 处 理 环节 进行 专门 的 硬件 优化 ; 集成 了 
tL 大 量 处 理 核心 ， 如 324%, 644%, 100 核 ， 提 供 强 大 的 并 行 处 理 能 力 ， 解决 了 传统 CPU 处 理 
Q 能 力 不 足 的 问题 ， 基于 C/C++ 的 编程 ， 大 大 增强 了 通用 性 、 灵 活性 和 可 移植 性 。 然 而 ， 多 核 
架构 引入 的 新 间 题 ， 如 核 间 通信 延迟 、 数 据 共 享 开 销 等 ， 在 一 些 要 求 低 转发 时 延 、 高 吞 叶 量 
的 应 用 中 ， 可 能 成 为 性 能 瓶 开 。 另外， 对 于 某 些 并 行 度 不 高 的 网 络 应 用 ， 多 核 并 行 处 理 的 优 
势 无 法 体现 。 


由 于 专用 硬件 逻辑 能 达到 最 高 的 性 能 ， 对 于 一 些 特定 运算 ， 如 加 解密 、 串 匹配 等 ， 高 性 
能 的 应 用 系统 仍 需要 一 些 专用 集成 电路 来 实现 ,但 专用 集成 电路 的 研发 投入 大 、 开 发 周期 长 、 
升级 困难 , 目前 只 能 适用 于 特定 的 应 用 。 男 外 一 种 基于 现场 可 编程 逻辑 门 阵列 的 硬件 加 速 技 
术 获 得 了 非常 广泛 的 应 用 。 现 场 可 编程 还 辑 门 阵列 本 身 具 备 高 速 、 并 行 和 可 编程 特性 ， 因 此 
非常 适合 于 高 速 网 络 数据 包 处 理 硬 件 加 速 。 当 前 , 现场 可 编程 逻辑 门 阵列 在 容量 和 速度 方面 
有 了 很 大 的 发 展 , 可 以 实现 大 规模 的 复杂 逻辑 ， 基于 该 平台 的 网 络 硬 件 加 速 方案 得 到 了 广泛 
研究 和 关注 趾 。 有 代表 性 的 研究 和 产品 包括 华盛顿 大 学 ARL 实验 室 的 FPX 平 台中、 斯 坦 福 
大 学 的 NetFPGA Jii HU? J£ Endace 公司 开发 的 DAG 系列 监测 卡 中 。 


! Hyper Finite Automata， 超 级 有 限 状态 自动 机 
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高 速 数 据 包 处 理 硬件 加 速 技术 


A 1 对 上 述 人 硬件 平台 进行 了 归纳 总 结 。 
表 1 常见 高 速 网 络 数据 包 处 理 硬件 加 速 平台 比较 
硬件 平台 典型 应 用 领域 


集成 了 多 个 并 行 处 理 引 | 微 码 编程 困难 , 且 代 码 的 | 传统 的 使 用 微 码 编程 的 
擎 ， 处 理 能 力 很 强 可 复 用 性 和 可 移植 性 差 | 网 络 处 理 器 目前 已 很 少 
使 用 , 逐步 被 现场 可 编程 
门 阵列 和 多 核 平台 取代 


Wd 25% Ach XE n 


现场 可 编程 “| 高 速 、 并 行 、 可 编程 ” | 灵活 性 有 限 , 难 以 进行 复 | 适用 于 对 性 能 要 求 很 高 


逻辑 门 阵列 杂 的 数据 包 处 理 的 特定 应 用 领域 


[可 以 在 产品 成 | 开发 周期 长 、 升 级 困难 , | 成 熟 的 专用 网 络 加 速 产 
专用 集成 电路 | 型 、. 量 产 阶段 极 大 地 降低 | 不 适用 于 研究 平台 rn 


高 并 行 度 , 集成 了 专用 的 | 价格 晶 贵 : 并 行 编程 、 调 | 有 很 大 并 行 度 可 以 挖 所 
网 络 数据 包 处 理 加 速 引 | 试 困难 ; 多 核 架 构 带 来 核 | 的 网 络 数据 包 处 理应 用 
"E, 网络 接口 丰富 , 具有 | 间 通 信 延 迟 、 数 据 共 享 开 
高 速 的 总 线 接口 销 等 新 问题 


KARZ ER 
处 理 器 


综合 来 看 ， 以 上 几 种 网 络 数据 包 处 理 技术 还 是 针对 提高 TO 性 能 、 主 存 性 能 以 及 计算 性 
能 来 发 展 的 。 对 于 高 速 链 路 环境 下 的 网 络 应 用 ， 都 要 采用 分 布 式 并 行 或 者 流水 处 理 方法 ,， 通 
过 便 件 加 速 部 件 实现 关键 计算 的 和 印 载 。 本 文 针 对 在 线 流量 分 析 和 控制 应 用 来 讨论 相关 硬件 加 
速 技术 。 这 类 应 用 对 数据 包 处 理性 能 〈 如 采集 性 能 、 转 发 延迟 等 ) 要 求 很 高 ， 控 制 层 面 的 处 
理 复杂 ， 所 以 通常 选用 现场 可 编程 逻辑 门 阵 列 作为 硬件 加 速 平台 实现 数据 层面 的 线 速 处 理 ， 
采用 高 性 能 服务 器 来 做 复杂 的 协议 分 析 和 策略 控制 。 在 便 件 平台 设计 方面 ， 核 心 是 解决 IO 
性 能 、 主 存 性 能 以 及 计算 性 能 的 均衡 问题 ， 优 化 整个 处 理 流程 ， 充 分 发 挥 系 统 的 计算 能 
实现 整个 系统 性 能 的 最 优化 。 


3 ”高 速 数据 包 处 理 硬 件 加 速 架构 


为 了 对 传统 的 纯 软 件 的 数据 包 处 理 流程 进行 加 速 , 本 文 在 架构 设计 时 主要 遵循 以 下 设计 
原则 : 


1， 保 证 线 速 采 集 : 使 用 基于 现场 可 编程 逻辑 门 阵列 的 加 速 卡 蔡 代 普 通 网 卡 ， 优 化 采集 
数据 通路 ， 实 现 高 速 流量 的 线 速 采集 ; 


2， 充 分 发 挥 多 核 并 行 的 优势 : 针对 后 端 多 核 服务 器 并 行 处 理 进行 硬件 优化 ， 在 加 速 卡 
中 利用 多 通道 高 速 DMA 〈 直 接 内 存 访问 ) 引擎 和 负载 均衡 技术 ， 将 流量 均 分 给 后 
端 多 个 核 处 理 ， 从 硬件 上 直接 支持 数据 并 行 化 ， 充 分 发 挥 后 端 多 核 处 理 器 的 并 行 处 


Hos 
HEBE 7J; 


3. FRAMED BCE DBE ATH: 利用 现场 可 编程 逻辑 门 阵列 固有 的 并 行 和 高 速 特 性 ， 将 软 
件 处 理 耗 时 ， 而 硬件 容易 高 速 处 理 的 功能 模块 在 加 速 卡 中 实现 ， 充 分 印 载 后 端 服 务 
器 的 处 理 负担 。 如 便 件 实现 高 精度 时 间 截 、 高 速 包 分 类 、 和 高 精度 流量 控制 单元 等 。 


基于 上 述 考 虑 ， 并 针对 在 线 流量 分 析 和 控制 等 典型 应 用 , 我 们 设计 了 如 图 2 所 示 的 高 速 
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控制 平面 和 数据 平面 组 成 : 数据 平面 完成 数据 包 的 各 种 处 
和 转发 等 ， 控 制 平面 实现 对 系统 的 管理 和 配置 ， 


图 2. 高 速 数 据 包 处 理 
HT CR 


数据 
时 ， 立 即 被 打 


H 


Er 


D 


PRAW UAE 2 


然后 


平面 的 结构 设计 充分 使 月 
上 硬件 时 
根据 不 同 的 应 月 


HEJER 


EN 


部 分 首先 对 


预 处 


并 行 技术 ,如 加 


日 需求， 通过 可 编程 接 


Ro 


HJ 


理 单 


将 前 


流水 级 上 


1 


mH 


包 


元 并 行 执行 ， 处 理 


端 处 理 单元 的 处 理 


HORS, Hb 


后 端 , 数据 包 被 复 
直接 内 存 访问 ) 引擎 传输 
据 具 体 的 应 


8 单元 中 的 


结果 通过 人 1 


结果 和 整个 数据 包 封 装 在 自 定 义 格式 的 记录 中 , 供 后 续 处 理 
制 成 两 路 : 一 路 送 入 采集 部 分 , 通过 负载 均衡 也 


裁 模 块 进行 


[me ya i Se a Se ee oe See 


便 件 加 速 架 构 


2 所 示 。 每 个 数据 包 在 进入 接收 
数据 包 的 3、4 层 协 议 进行 解析 和 预 处 
， 有 选择 地 使 数据 包 进 入 包 分 类 单元 、 
个 或 同时 进入 若干 个 处 理 单元 , 进行 后 续 处 理 。 各 个 处 
中 裁 。 仲 裁 模块 还 要 负责 对 数据 包 进 


至 后 端 服务 器 进 


步 处 cE. § 


5 


在 系统 设计 中 ， 要 实现 的 关键 技术 包括 : 


E 在 多 核 多 处 理 


器 的 处 


即 硬件 实现 高 性 能 的 数 
点 解决 的 问题 。 


th 
FaN 


实现 高 性 能 的 数据 采集 ， 
接 内 存 访问 ) 技术 、 内 存 的 循环 缓冲 技术 、 负 载 均 衡 技术 等 ， 从 物理 通道 和 处 理 
1 上 保证 数据 的 高 怕 


的 流量 探 人 


Lob s 
EREKE. 


路 送 入 转发 引 


用 需求 ， 可 以 选择 对 流量 进行 清洗 和 控制 。 


里 环境 中 ， 通 过 硬件 把 网 络 数据 流 分 发 到 相应 的 处 理 线程 上 
包 分 类 一 一 高 性 能 的 数据 包 


分 类 


多 
DM 


Myer er 


通道 


A512 


FTH, 


多 通道 1 
x, 


d 


算法 及 其 实 


使 用 。 在 
高 速 DMA 
提供 快速 的 数 


mii 
DER ~ 


现 是 需要 习 


为 了 保证 数据 的 不 丢 包 ,需要 研究 多 缓冲 队列 、DMA CH. 


降低 时 延 ， 实 现 可 扩 


对 时 间 戳 有 着 入 


30.5ns'^ 


机 


由 技术 ,对 于 在 线 应 用 的 系统 来 说 ,在 硬件 上 实现 


高 精度 ， 也 可 以 有 效 降低 软件 的 运算 量 。 
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展 的 高 精度 流量 控制 单元 是 保 i 


相关 便 件 加 速 单元 的 实现 ， 例 如 ， 网 络 分 析 需 要 精 古 


F 系 统 可 用 性 
ar É 


高 精度 的 要 求 ， 在 OC192 链 路 ， 
， 要 求 时 间 戳 的 分 辨 率 在 ns 级 。 通 过 在 人 硬件 上 产生 时 间 


i 量 控制 可 以 有 效 
的 重要 工作 。 


的 时 间 序 列 关 系 ， 


， 数 据 包 的 最 


\ 时 间 间 隔 仅 为 
# BEAT RHE 


4 


基于 


Fi 


hl 


RBG 


控制 技术 等 方面 进行 了 一 系列 


2t 1.4 


4.1 并 行 优化 的 线 速 数据 采集 结构 


量 采 集 是 对 
日 普通 网 卡 与 通用 CPU 
J 移植 性 好 等 特点 。 然 


网 络 流 
现 ， 使 月 
单 易 用 、 
的 CPU 处 


H 


相 组 合 ， 


蛙 能 力 。 随 着 链 路 带宽 的 提升 ， 


E GLA ER 


完成 网 络 流量 的 采 
j, THE fti UP, Aap Ah 
传统 的 采集 方式 在 


加 速 技术 


高 速 数据 包 处 理 的 硬件 加 速 方法 


络 流量 进行 全 面 统计 分 析 的 基础 ,传统 的 流量 采集 通常 基 
E UE SEES 
L1 比特 的 网 络 数 据 ， 需 要 消耗 1Hz 
上 断 、 内 存 拷贝 等 环节 存在 


BE 


AN 


die 


4a 
H 


不 断 升 级 ， 基 于 该 平台 的 便 伯 


Bi, 无 法 保证 在 高 速 链 路 数据 采集 
[加 速 方案 得 
包括 华盛顿 大 学 ARL KEZ H FPX ES Endace 公司 


不 于 


包 。 随 着 现场 可 编程 逻辑 门 阵列 在 


软件 


容量 、 


上 于 提出 的 加 速 架构 ， 我 们 课题 组 在 数据 采集 、 时 钟 同步 技 术 、 包 分 类 技术 、 流 量 
E， 以 下 分 别 从 这 些 方面 进行 介绍 。 


ES 


AL 


速率 上 的 


到 了 广泛 研究 和 关注 上 0。 有 代表 羽 


的 五 
^ DAG 系列 监测 


= 


发 


公司 基于 现场 可 编 
10G 链 路 环境 1 
能 力 提 供给 应 月 


mi 


日 程序 。 


为 了 进一步 提高 数据 采集 
性 能 , 并 针对 后 端 多 核 服务 器 的 
并 行 处 理 进行 优化 , 我 们 基于 现 
场 可 编程 逻辑 门 阵列 提出 了 一 
个 并 行 优 化 的 线 速 数据 采集 结 
构 ， 如 图 3 所 示 。 


ACN KER ai A, DMA 
直接 内 存 访问 ) 引擎 只 需要 设 
计 一 个 传输 通道 .为 了 务 载 软件 
多 线程 共享 数据 的 加 锁 开 销 , 我 
们 基于 现场 可 编程 门 阵列 设 
使 用 负载 均衡 单元 在 人 硬件! 


AS 


程 罗 得 门 阵列 实现 
F 的 线 速 采 集 ， 在 数据 


ij 获 过 程 


的 高 速 流量 采集 卡 (DAG - 


K), JOSE 


几乎 不 占用 任何 CPU 


DMA 通 道 3 -十 


DMA 通 道 8 -十 


Fi 


和 产品 


19] Endace 


BL 1G. 2.5G & 


资源 ， 将 所 有 的 处 理 


图 3. 并行 优化 的 采集 结构 


通道 分 别 高 速 传输 到 主机 
数据 级 的 并 行 分 解 ， 后 端 各 处 


的 不 同 内 存 组 六 


H 


X. 


EA] 


此 ， 数 据 包 进 入 后 端 服务 器 


计 了 一 个 8 通道 独立 的 高 速 PCIE DMA (直接 内 存 访问 ) 引擎 。 
实现 数据 分 发 ， 然 后 将 数据 包 通 过 8 4S DMA (直接 内 存 访问 》 
区 时 ， 已 经 实现 了 
里 线程 数据 完全 独立 ， 可 以 实现 无 锁 编 程 ， 避 免 了 线程 互 斥 开 


销 。 同 时 ， 后 端 主机 可 以 配合 使 用 环形 缓冲 区 技术 和 零 拷 贝 技术 0， 避 免 数 据 拷 贝 的 开销 。 
Æ DMA (直接 内 存 访问 ) 引擎 设计 时 ， 为 了 更 适应 高 速 链 路 的 数据 采集 需求 ， 我 们 设计 的 
DMA “〈 直 接 内 存 访 问 ) 引擎 文 持 轮 询 机 制 控制 ， 从 而 避免 中 断 开 销 。 

后 端 多 核 并 行 处 理 单元 的 处 理 能 力 可 能 不 同 ， 如 果 不 考虑 后 端 并 行 处 理 单元 的 能 力 差 
异 ， 将 流量 均 分 处 理 ， 可 能 导致 处 理 能 力 强 的 单元 经 常 空 闲 ， 而 处 理 能 力 差 的 单元 无 法 及 时 
处 理 所 有 数据 包 。 因 此 ， 我 们 提出 了 一 个 基于 反馈 的 负载 均衡 算法 (FDLB，Feedback based 


Dynamic Load Balance) “+ 站， 该 算法 可 根据 处 


量 保持 会 话 完整 改 


高 精度 时 钟 同步 技术 中 
网 络 应 用 ， 如 流 


4.2 


EQ 
FR 


E。 当 输入 流量 大 于 后 端 处 到 


ik (RED) 中 尽早 地 丢弃 数据 包 ， 以 避免 拥塞 


动态 i 


里 单元 负载 能 


的 发 生 。 
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: HRR, HRES 
能 力 时 ， 负 载 均 衡 单元 中 引入 随机 早期 丢弃 算 


工程 、 服 务 质量 等 都 需要 时 间 信息 2421。 时 钟 信息 的 精度 将 直接 影响 
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应 用 系统 计算 结果 的 准确 度 。 高 精度 时 钟 同步 包括 以 下 两 个 问题 1; 
1， 单 系统 时 钟 分 辨 率 :系统 时 钟 分 辨 率 应 能 够 区 分 出 链 路 上 相 邻 到 达 的 数据 包 ; 
2， 多 系统 时 钟 同步 : 分 布 式 网 络 应 用 系统 的 多 个 节点 时 钟 要 保持 精确 同步 。 


在 纯 软 件 的 时 间 同 步 方 法 中 ， 网 络 时 间 协 议 NTP (Network Time Protocol) 应 用 最 为 广 
ZPH, AAA NTP 协议 与 网 络 中 时 间 服 务 器 同步 ， 通 过 估算 数据 包 在 网 络 上 往返 延迟 ， 
计算 节点 时 钟 与 时 间 服 务 器 时 钟 偏差 ， 从 而 完成 时 钟 同步 。NTP 可 以 达到 毫秒 级 同步 精 
度 呈 ,文献 [29] 基 于 实时 Linux 操作 系统 ,利用 NTP 协议 获得 了 误差 在 1us 之 内 的 稳定 时 钟 。 
软件 时 钟 同步 方法 实现 简单 ， 但 是 精度 不 高 ， 性 能 不 稳定 。 霍 拉 尔 (Horauen 等 人 提出 了 一 种 
基于 以 太 网 的 时 钟 同 步 技术 SynU TC P), 利用 硬件 产生 时 间 戳 ,其 同步 误差 为 100ns。 文 献 [31] 
设计 了 专用 数据 包 捕 获 DAG 卡 ， 它 利用 硬件 给 所 有 捕获 的 数据 包 加 时 间 惟 ， 所 有 卡 与 GPS 
时 钟 同步 ， 时 间 惟 偏差 在 100ns 之 内 。 要 用 到 GPS， 系 统 价格 成 本 过 高 。 


为 了 满足 众多 网 络 应 用 对 时 钟 同步 的 需求 , 我 们 课题 组 提出 了 一 种 软 硬 件 结合 提高 系统 
时 钟 同步 精度 的 方法 中 。 该 方法 利用 硬件 产生 时 间 稚 ， 消 除了 各 种 软件 延 信 的 影响 。 同 时 
设计 了 基于 预测 的 时 钟 同步 算法 PCS, 利用 该 算法 完成 各 节点 的 时 钟 同步 。 设计 的 时 钟 同步 
子 系 统 具 有 相当 的 灵活 性 : 既 可 以 使 用 GPS 时 钟 作为 时 钟 源 完成 各 节点 的 同步 ， 也 可 以 在 
不 使 用 GPS 时 钟 源 的 情况 下 ， 利 用 串口 通信 实现 多 个 节点 的 同步 ， 且 同步 精度 不 低 于 使 用 
GPS 的 情况 。 


硬件 时 间 戳 生成 电路 如 图 4 oz P, 
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中 断 信号 | xd NK MN p. 
输入 脉冲 


图 4. 时 间 惟 生成 电路 
时 钟 同 步 实际 上 就 是 调整 一 个 系统 的 时 钟 频 率 使 其 与 参考 时 钟 频率 一 致 的 过 程 。 在 时 间 
戳 生 成 电路 中 ， 这 部 分 功能 由 直接 数字 频率 综合 器 (DDS, Direct Digital Synthesizer) 完成 。 
通过 调整 DDS 频率 控制 字 ， 可 以 获得 各 种 频率 的 时 钟 。PCS 算法 中 的 原理 可 以 图 5 描述 。 
算法 分 成 启动 和 同步 两 个 阶段 。 在 启动 阶段 , 从 节点 完成 时 间 戳 秒 分 数 部 分 的 偏差 纠正 ; 
在 同步 阶段 ， 从 节点 基于 上 次 结果 微调 本 次 DDS 频率 控制 字 , 使 得 自身 时 钟 与 主 节 点 同步 。 
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阶段 2 NES 


BT EX 4 


阶段 5 MEO 


(1) 主 卡 或 GPS 输 入 的 参考 时 钟 (4) 算法 启动 阶段 


(2) 频率 控制 字 
(3) HARRA 


图 5.PCS £37 


4.3 通用 包 分 类 结构 RSTCAMCD 


包 分 类 技术 为 在 网 络 设备 中 把 到 达 的 数据 包 归 类 为 不 同 的 数据 流 提供 了 文 持 。 它 用 不 同 
的 规则 来 标识 各 个 数据 流 , 每 条 规则 根据 对 数据 包头 部 各 字段 的 分 析 指 出 该 数据 流 中 的 数据 


去 示意 图 


(5) 算法 同步 阶段 


包 应 当 执 行 的 相应 操作 。 典 型 的 包 分 类 算法 主要 包括 3 2807. 基于 决策 树 的 算法 ， 基 于 分 


解 -并 行 的 算法 和 基于 TCAM 的 算法 。 基 于 决策 树 的 算法 是 对 线性 搜索 算法 的 改进 ， 它 采用 
树 结构 代替 传统 的 线性 链表 结构 ,首先 根据 分 类 规则 集 建 立 一 棵 决策 树 ， 分 类 时 数据 包 治 着 


决策 树 查 找 获取 分 类 结果 。 此 类 算法 的 典型 代表 有 Grid-of-Tries 算法 中 、FIS-tree 算法 [331、 


AQT 算法 689、EGTPC 算法 S99、HiCuts 算法 B59 以 及 HyperCuts 算法 B97 等 ， 基 于 分 解 -并 行 
的 算法 核心 思想 是 将 分 类 问题 并 行 化 , 通过 分 解 将 多 维 包 分 类 问题 转化 成 多 个 一 维 包 分 类 问 


B Cu 


类 问题 


| BV RAPI ABV 算法 中 )， 或 者 将 一 个 大 空间 的 分 类 问题 分 制 成 多 个 子 空间 的 分 


(如 Tuple Space 算法 中)， 降 低 算法 复杂 度 ， 提 高 算法 性 能 。 基 于 TCAM 的 算法 引 
入 硬件 解决 方案 ， 由 于 TCAM 具有 极 快 的 分 类 速度 ， 目 前 商用 包 分 类 器 均 采 用 基于 TCAM 


的 包 分 类 。 但 是 ， 由 于 TCAM 中 大 量 的 并 行 结构 导致 很 高 的 功 耗 ， 在 存储 密度 、 可 扩展 性 


方面 也 存在 很 多 限制 。 
包括 ETCAM #3244. EaseCAM $115. 


=— 


因此 此 类 算法 的 研究 致力 于 寻求 解决 上 述 问 题 的 办 法 。 具 有 代表 性 的 
CoolCAMs 算法 [等 。 


对 于 常见 的 基于 五 元 组 的 包 分 类 算法 而 言 ,| 
个 域 进行 匹配 ， 再 将 匹配 结果 进行 合并 得 到 最 终 
并 利用 5 片 128Kb SRAM 实现 了 一 个 包 分 类 器 。 
行 100 万 次 查找 。 我 们 基于 类 似 的 思想 ， 在 RSTCAM 的 设计 中 ， 使 用 了 5 个 TCAM， 每 


个 TCAM 存储 五 元 组 ， 


RSTCAM 结构 如 图 6 rz, 


RSTCAM 将 原来 五 多 


1. 


2. 


于 五 元 组 中 5 个 域 相互 独立 ,可 以 先 对 每 


一 个 域 ， 将 各 域 匹 配 结果 进行 “与 ”运算 ， 得 到 最 终 分 类 结果 。 


匹配 结果 。 文 献 [38] 最 早 提出 了 这 种 想法 ， 


Ras CHF 512 条 规则 ， 平 均 每 秒 可 执 


查找 转换 成 了 5 个 一 维 查找 ， 由 此 融 来 以 下 优点 


提高 工作 频率 : TCAM 工作 频率 与 其 位 宽 有 关 


立 宽 越 大 ， 工 作 频 率 越 低 。 通 过 将 


E 


五 维 查 找 转换 为 5 个 一 维 查 找 , 降低 了 每 个 TCAM 的 位 宽 ， 因 此 工作 频率 得 到 了 较 


大 提升 。 


减少 资源 占用 量 : 在 分 类 规则 集 : 
每 个 TCAM 的 容量 可 以 减少 很 多 。 


通常 有 


许多 具有 相同 域 的 规则 , 通过 合并 相同 域 ， 


? Ternary Content Addressable Memory, 三 态 内 容 可 寻 址 存储 器 
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AS 
hs 6 


3. 降低 系统 功 耗 : TCAM HHE 
结构 的 位 宽 ， 从 而 降低 了 功 耗 ， 男 外 ， 由 于 


SK d 
分 类 


坏人 


月 


J TCAM 并 
可 以 单独 打开 
于 实现 范围 
况 下 一 条 w 比特 范围 


源 IP 


协议 类 型 TCAM H 
Fl 协议 类 型 | 


控制 逻辑 


P 


TT 


~ XH 


匹配 : H 


TCAM 
源 IP 

TCAM 

目的 IP 


目的 端口 


E S 


S BORDER 


fi. 
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p 


某 个 TCAM， 实 现 
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其 内 部 并 行 结构 产生 ， 采 用 RSTCAM 结构 降低 


F 5 个 TCAM 相互 独立 ， 


度 与 功 耗 之 间 的 权衡 。 


P UTR 


表示 转换 成 前 级 形式 。 


围 表示 的 域 通常 需要 将 其 
表示 需要 转换 成 2(w 一 DD 条 前 级 。 设 规则 Rj 包含 d 个 域 ， 
个 域 均 为 范围 表示 ， 每 个 域 的 位 宽 分 别 为 wj,w,,…,w; ， 则 最 坏 情况 下 规则 Ri 需 
转换 成 2(w, —1) x 2(w, -=Dx…x2(w, 1) 条 前 级 规则 。 采 用 RSTCAM 结构 后 ， 由 
各 域 相 互 独立 ， 最 坏 情况 下 仅 需 2(w -D+2(w, -1) 


DD 条 规则 。 


TH Hil 可 gr 


TCAM 


图 6. RSTCAM 24 


4.4 高 精度 可 扩展 的 流量 控制 技术 


yes 
Yl 


后 来 很 多 下 


版 本 的 TCP 流量 控 人 


术 的 发 展 , 而 


量 控制 是 网 络 监 ; 
按照 历史 的 演进 ， 
的 流量 控制 “路 由 器 )。 早 期 的 流量 控制 3 


JA Wes Epy 
TELE dS 4 


FTA Ba RE XY E 
| 算法: 


Feat FT Met ik VU 


6 


I 研究 分 为 两 个 阶段 : 


4 


故 了 深入 的 下 


Tahoe'?!, Reno, 


^N 


Tn 


jt 


TW. 


构 


2(w, 


则 、 网 络 安全 、 服 务 质 量 保证 等 网 络 应 用 的 关键 技术 。 FEE AM 


到 端的 流量 探 


要 利用 TCP 中 的 滑动 窗口 机 制 在 端 系 统 上 实现 。 


P 间 节点 上 


BJ CXEBLO F4 


究 , 不 断 改 进 算法 ， 


存在 的 缺陷 , 出 现 了 5 个 主要 


NewReno!?! , 


Oz 
NJ 


È 


上 ， 仅 仅 在 端 系统 | 


Keo J 


六 是， 大量 的 研究 工作 


Nits 
2 


Edo 


Hb ee ZN 


TH W 7J 


ARED(Adaptive RED)", Balanced-REDP!!^r, die HY BA zi] ja EAA OE 


FEE EHE PLE A LA Wid Zo BA 
 BESEZSUOE S SERE 


E 持 较 小 的 队列 长 度 ; BAFI 


" 


于 


始 关注 网 络 : 


BE 
间 节 点 设备 (路 | 


p. 
INA 


EL +S A 
i 量 控制 


SACK?! Vegas“. PEAH 
， 很 难 满 足 诸 如 服务 质量 等 要 


器 ) 上 的 流量 控制 。 路 由 器 -| 


I 管理 


I 中 的 分 组 发 送 的 次 序 ,决定 各 队列 日 
配 。 典 型 的 队列 管理 算法 包括 RED 算法 中 以 及 各 种 基于 RED 的 改进 算法 ， 如 


法 研究 何 时 丢弃 何 种 报 文 ， 以 
日 


究 工 作 包 括 : GPS 


(Generalized Processor Sharing) 模型 名 ， 加 权 轮 询 队列 WRR (Weighted Round Robin) P?! 


和 加 权 公 平 队列 WFQ CWeighted Fair Queue) 等 。 
由 于 路 由 器 上 的 流量 控制 基于 队列 管理 和 队列 调度 实现 , 而 队列 的 资源 是 有 限 的 , 很 难 
满足 业务 流 级 带宽 精细 管理 的 需求 。 为 了 解决 这 个 问题 ,本文 提 出 了 一 种 “ 虚 通 道 ” 的 概念 。 
虚 通道 由 虚 通道 号 〈Virtual Channel ID) 标识 。 每 个 数据 包 携 带 一 个 虚 通 道 号 ， 根 据 携 
带 的 虚 通 道 号 选择 进入 不 同 的 虚 通道 。 在 每 个 虚 通道 的 入 口 ， 设 计 一 个 控制 开关 ， 如 图 7 


所 示 。 
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图 7 中 , 每 个 虚 通 道 入 口 的 控制 开关 本 质 上 是 一 个 数据 包 准 入 检查 单元 。 该 单元 检查 


每 个 到 达 虚 通道 入 口 的 数据 包 , 决定 是 否 人 允许 其 进入 虚 通 道 。 如果 不 允许 , 则 丢弃 该 数据 包 。 
该 单元 主要 包含 如 下 几 个 关键 参数 : 


"— 控制 开关 
T: 基本 的 时 间 单 元 。 本 文 EE = 40K A -ixz- - 
将 时 间 轴 划分 为 若干 个 时 间 单 I RES ti REO 
元 了 ， 在 每 一 个 时 间 单元 内 实施 o \ 
J5 Ex E a BES AJ LH. 1 “eee A N 
zer Amm LAN BEI 
B: 在 时 间 单 元 T 内, 进入 suu o4 5m — Ta------- "E 
虑 通道 号 为 2 的 ,| ELE ult 
虚 通道 的 数据 报 文 的 总 长 度 计 gpa ^i HEB S TA 
数值 .在 每 个 时 间 单元 7 的 初始 : ae 
时 刻 ， 召 =0 。 / 


虚 通 道 号 为 N 的 | SEE 
w. 数据 包 总 长 度 阅 值 ，。 虚 通 道 号 为 N 的 | Plug 


每 个 时 间 单 元 T 内 , 进入 虚 通 道 
的 数据 包 总 字 节 数 B 不 能 超过 


W. 


B7. EE E B 


设 时 间 单 元 工 内 进入 的 第 i 个 数据 包 的 长 度 为 五 ， 第 i 个 数据 包 人 允许 进入 虚 通 道 的 条 件 


是 : 


B+L; <W 


如 果 上 述 条 件 不 满足 ， 第 i 个 数据 包 将 被 丢弃 。 如 果 第 i 个 数据 包 成 功 进入 虚 通 道 ， 则 
(EX B=B+L,, FU B 保持 不 变 。 


对 于 所 有 的 时 间 单 元 T ， 如 果 保持 W 参数 不 变 ， 那 么 ， 我 们 就 可 以 使 保证 虚 通 道 的 带 


w R Wæ: RXW/T 。 这 就 是 流量 限制 的 情形 ; 


如 


RE m (m >1T 个 时 间 单 元 的 阔 值 WwW， 根据 第 (m -1D 个 时 间 单 元 最 后 时 刻 的 WwW 和 


Bi1 进行 如 下 调整 : Way =W +(Wm 1 一 Bm 1)， 那 么 ， 该 虚 通 道 的 流量 大 小 R 就 能 满足 : 


R«W 
控制 值 


内 无 法 


E 


前 链 路 
1024 个 不 同 的 控 


的 一 个 
对 应 虚 
储 起 来 


yes EL Bs 
流量 控 


加 两 个 


/T ， 这 就 是 流量 精确 


控制 的 情形 。 然 而 ， 如 果 一 直 按 照 上 式 修正 ， 当 实际 流量 小 于 


I. Wy 将 无 限制 的 变 大 ， 最 后 ， 当 实际 流量 高 于 控制 值 时 ， 流 量 会 在 很 长 一 段 时 间 
控制 。 因 此 ，W 超过 一 定 阔 值 时 必须 将 其 修正 部 分 清 零 ， 使 W =W o 


通道 本 身 并 不 消耗 任何 实际 的 逻辑 资源 , 它 仅仅 是 多 业务 流 同 时 进行 控制 时 ， 对 各 个 
流 的 数据 通路 的 一 种 抽象 。 真 正 消耗 罗 辑 资源 的 是 每 个 虚 通道 入 口 的 控 表 
程 逻辑 门 阵列 中 ， 要 实现 1024 个 虚 通道 ， 需 要 1024 个 参数 不 同 的 控制 开关 。 然 而 ， 无论 当 
Ph 有 多 少 并 发 流 ， 数 据 包 在 微观 上 是 串 行 传输 并 处 理 的 。 因 此 ， 实 际 上 不 需要 设计 


i— 


FXK. TEMG HY r 


控制 单元 。 对 进入 控制 


HFR, MERKE 1024 个 不 同 虚 通道 的 控制 参数 CT. B. W 等 ) 


单元 的 每 一 个 数据 包 ， 根 据 其 携带 的 虚 通道 号 ， 读 出 该 数据 包 


通道 的 控制 参数 ， 对 其 


进行 准 入 检查 。 处 理 完 一 个 数据 包 后 ， 将 修改 后 的 参数 B 存 


， 并 准备 处 理 下 一 个 数据 包 。 

另外， 时 间 单 元 参数 了 可 以 在 各 个 虚 通 道 之 间 全 局 共享 ， 因 此 ， 要 实现 1024 种 不 同 的 
制 策略 ， 需 要 1024 个 虚 通 道 ， 消 耗 的 逻辑 资源 包括 : 一 个 统一 的 控制 单元 ，1024 个 
参数 B 、W 的 存储 ， 一 个 全 局 参数 了 的 管理 。 因 此 ， 每 增加 一 个 控制 通道 ， 仅 仅 只 需要 增 


参数 的 存储 资源 ， 该 方法 对 流量 控制 通道 数量 有 很 好 的 可 扩展 性 。 
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最 后 ， 还 需要 一 个 大 的 输出 缓存 队列 ， 对 所 有 的 流 进 行 统一 整形 。 由 于 数据 包 的 传输 在 
上 是 串 行 的 ， 多 个 虚 通道 的 网 络 流量 汇聚 到 输出 队列 时 ， 不 需要 进行 调度 。 


微观 
5 ”性 能 评测 


我 们 基于 赛 灵 思 (Xilinx) 公司 的 V5 系列 现场 可 编程 逻辑 门 阵列 实现 了 数据 包 处 理 硬 
件 加 速 的 多 个 原型 系统 ， 以 满足 不 同 的 网 络 链 路 的 需求 ， 如 GE(Gigabit Ethernet), 10GE, 
10G POS (Packet Over Sonet)。 利 用 思 博 伦 (Spirent) 公司 的 TestCenter 网 络 测试 仪 对 系统 
的 加 速 性 能 进行 了 全 面 测试 ， 主 要 评测 包括 如 下 几 个 方面 ; 


1， 线 速 采集 测试 


图 8 列 出 了 各 种 长 度数 据 包 测 试 流 me eee 
量 下 ,数据 采集 的 包 速 率 。 除了 最 极端 单 CPU 包 速率 
的 情况 〈 包 长 度 为 64 字 节 )， 加 速 平 台 
都 能 够 实现 万 兆 网 络 流量 的 线 速 采 集 。 
在 数据 包 长 度 为 64 字 节 的 极限 情况 下 ， 
存在 少量 的 数据 包 丢 失 。 为 了 减轻 后 端 
CPU 的 处 理 压力 , 传输 的 每 个 数据 包 都 
附加 了 16 字 节 的 额外 信息 ， 占 用 PCI- 
Express 总 线 带宽 ， 使 得 PCI-Express 总 
线 传输 的 实际 带宽 高 于 测试 仪表 的 发 
送 带宽 。 在 四 CPU 同时 进行 数据 采集 
时 , 根据 测试 结果 (采集 的 最 大 包 速 率 ) 
计算 可 知 ， 此 时 PCI-Express 总 线 的 有 效 载荷 (payload) 带宽 已 经 达到 了 11.2Gbps， 接 近 理 
论 极限 带宽 ， 从 而 引发 丢 包 。 


wit 4CPU 包 速率 


RSSSSSSSSSSSSSSSSSSSSSSSSSSSÜNS 
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图 8. 数据 采集 测试 
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图 9. 主 、 从 节点 同步 的 时 间 惟 偏差 及 偏差 分 布 
2， 双 卡 时 钟 同步 精度 测试 2 
将 两 块 加 速 卡 安装 到 不 同 服务 器 中 ， 通 过 RS422 互 连 两 块 加 速 卡 。 首 先 在 两 个 服务 器 
上 运行 网 络 时 间 协 议 NTP， 使 其 达到 秒 级 同步 ， 然 后 启动 PCS 同步 算法 ， 并 且 分 别 设置 主 、 
从 工作 模式 ， 测 得 主 、 从 节点 时 间 惟 偏差 结果 如 图 9 所 示 。 限 于 篇 幅 ， 图 9 左 半 部 分 中 只 描 
绘 了 2 小 时 共 6956 个 点 的 图 形 , 其 右 半 部 分 是 对 12 小 时 测量 结果 的 统计 。 从 结果 可 见 , PCS 
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算法 通过 调整 频率 控制 字 很 好 地 完成 了 两 块 卡 的 同步 ， 大 部 分 时 间 蕉 偏差 控制 在 0 一 100ns 
之 内 。 该 结果 达到 了 基于 GPS 同步 的 精度 。 


3， 包 分 类 功能 测试 


为 验证 包 分 类 功能 ,设置 包 分 类 器 第 1 条 规则 [X, X, UDP, X, X] 匹 配 所 有 UDP 流量 ; 第 

10 条 规则 [192.168.0.X, X, TCP, X, X] 匹 配 所 有 源 IP 地 址 为 192.168.0.X TCP 流量 ; 第 50 条 

FU [192.168.1.X, 192.168.100.X, TCP, X,，X] 匹 配 所 有 源 、 目 的 IP 地 址 为 192.168.1.X 和 

192.168.100.X TCP 流量 ; 第 150 条 规则 [192.168.1.X, 192.168.200.X, TCP, 1-255, X] 匹 配 所 有 

源 、 目 的 IP 地 址 为 192.168.1.X 和 192.168.200.X 且 源 端口 号 1-255 的 TCP 流量 ， 设置 最 后 
一 条 规则 匹配 所 有 流量 ， 其 它 规则 全 0。 


仪表 生成 以 下 5 种 流量 : stream0 为 UDP 流量 ; 
stream1 A TCP ji Œ HW IP 为 192.168.0.X; stream2 
为 TCP 流量 且 源 、 目 的 IP 分 别 为 192.168.1.X 和 
192.168.100.X; stream3 为 TCP 流量 , 源 、 ARN IP 
分 别 为 192.168.1.X 和 192.168.200.X， 源 端口 号 
1-255; stream4 为 TCP 流量 ， 源 、 目 的 卫 分 别 为 
192.168.1.X, 192.168.200.X, ee, 
1024-4095。 所 有 测试 流量 均 为 小 包 64 字 节 ， 每 种 
流量 占 总 带宽 2096, 测试 时 逐步 VILE 1, 10, 
50. 150 的 流量 过 滤 ， 测 得 各 stream 带宽 如 图 10 
所 示 。 


第 0 步 时 端口 上 各 流量 带宽 相等 〈157446808bps)， 到 第 1 步 时 将 匹配 规则 1 的 流量 过 
滤 (通过 程序 修改 与 分 类 规则 1 相对 应 的 查找 表 中 的 操作 码 ， 将 其 置 为 0xf， 过 小 匹配 的 数 
据 包 )，stream0 带宽 变 成 0， 其 它 流量 带宽 变 成 184325000bps《〈 此 时 除 过 滤 的 包 之 外 ， 不 存 
在 丢 包 )， 到 第 2 步 时 将 匹配 规则 2 的 流量 


图 10. 包 分 类 功能 测试 


0.18 
过 滤 ，streaml 带宽 变 成 0， 到 第 4 步 时 只 dde 
剩 下 stream4 流量 。 图 10 的 测试 结果 说 明 MH 
了 RSTCAM 包 分 类 引擎 能 在 万 兆 速率 下 正 
确 分 类 数据 包 。 One 
Ç 0.10 
4. 流量 控制 精度 测试 M 0.08 
ok ` 


使 用 TestCenter EUKIEN BK W 0.06 
1009%6 的 测试 流量 ， 通 过 我 们 加 速 卡 的 流量 “和 片 0.04 


控制 功能 ， 将 流量 分 别 控制 为 100Kbps， 0.02 

1Mbps, 10Mbps, 50Mbps, 100Mbps 及 0 

200Mbps， 每 次 测试 时 间 为 30 分 钟 ， 每 秒 us ELE LI I 
钟 采 样 一 个 速率 值 ， 流 控 精度 测试 结果 如 IUS Mate? 

11 所 示 。 图 11， 流 量 控制 精度 测试 


情况 下 误差 大 致 在 0.1% 左 右 ， 


= 


测试 结果 表明 ， 流 量 控制 值 越 大 ， 相 对 误差 越 小 。 小 流 
大 流量 情况 下 ， 平 均 误 差 都 在 0.1% 以 下 。 


3 User Datagram Protocol, 用 户 数据 包 协 议 
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6 总结 与 展望 


高 速 海量 的 网 络 数据 和 更 加 复杂 的 处 理 需求 ， 给 高 速 网 络 数据 包 处 理 带 来 了 巨大 的 挑 
战 。 传 统 服务 器 的 性 能 远 远 无 法 满足 目前 高 速 数据 包 处 理 的 需求 ， 高 速 数据 包 处 理 在 很 多 环 


节 存 在 性 能 瓶颈 。 为 了 全 面 提升 高 速 网 络 数据 包 的 处 理性 能 ,我 们 提出 了 一 个 通用 的 基于 现 


场 可 编 


Ril ZA 


速 采 集 


程 门 阵列 的 高 速 网 络 数据 包 处 理 加 速 架 构 。 该 架构 有 如 下 三 个 特点 : (1) 高 速 流量 线 
; (2) 针对 多 核 并 行 处 理 进行 优化 ;(3) 硬件 充分 印 载 软件 负担 ; 基于 该 架构 ， 我 们 
在 流量 采集 技术 、 高 精度 时 钟 同 步 技术 、 高 速 包 分 类 技术 和 流量 控制 技术 等 方面 ， 提 


Li 


体 的 硬件 加 速 方法 。 测 试 结果 表明 ， 我 们 提出 的 硬件 加 速 方法 行 之 有 效 ， 能 有 效 的 提 


LI 
Hu J N 


高 应 用 


系统 的 整体 性 能 。 


基于 课题 组 己 有 的 研究 成 果 ， 可 以 在 如 下 方面 进一步 深入 研究 : 


研究 更 高 速 链 路 (如 40Gbps、100Gbps) 数据 包 处 理 的 关键 技术 ， 以 满足 骨干 网 带 
宽 不 断 升 级 的 需求 ; 


研究 应 用 层 深 度 报 文 检测 的 硬件 加 速 技术 。 深 度 报 文 检测 是 协议 分 析 、 网 络 安 全 等 
应 用 的 关键 技术 ， 传 统 的 软件 算法 很 难 满足 高 速 链 路 深度 报 文 检测 的 性 能 需求 ， 因 
此 ， 更 高 速率 、 更 大 规模 规则 集 的 深度 报 文 检测 的 硬件 加 速 技术 是 一 个 值得 研究 的 
JI E] o 


基于 多 核 平 台 的 高 速 数 据 包 处 理 加 速 技术 。 现 场 可 编程 逻辑 门 阵列 本 身 固 有 的 并 行 、 
高 速 和 可 编程 特性 ， 使 其 非常 适合 对 高 速 数据 包 处 理 进 行 硬件 加 速 。 然 而 ， 现 场 可 
编程 逻辑 门 阵列 本 身 的 灵活 性 有 限 ， 通 用 性 不 强 ， 很 难 满足 复杂 的 网 络 处 理 需 求 。 
多 核 (Multi-Core )、 众 核 (Many Core) 技术 的 兴起 ,给 高 速 数 据 包 处 理 提供 了 新 的 
解决 方案 。 如 何 充 分 挖掘 数据 包 处 理 的 并 行 度 、 充 分 发 挥 多 个 CPU 并 行 处 理 的 优势 ， 
是 一 个 值得 深入 研究 的 方向 。 
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